中科院软件所在代码注释数据治理方面取得进展（2022-7-26）

近日，中国科学院软件研究所互联网软件技术实验室在代码注释数据治理方面取得进展。该研究针对当前代码注释大数据质量治理难的问题，通过分析4个大规模代码注释基准数据集，归纳出12种类型的噪声数据并研发了基于规则的代码注释数据噪声清理工具，能够高效、精准地自动治理代码注释数据质量，为代码注释自动生成模型形成高质量数据提供保障，有效促进现有的代码注释自动生成模型提升性能。

代码注释自动生成技术旨在减轻人工编写注释代码的工作量，从而提高软件开发效率。目前主流的代码注释生成模型大多采用深度学习框架，模型的有效性依赖大规模高质量数据集。然而现实中基准数据集主要采集自真实的开源项目代码，其数据质量如何尚无研究深入分析。

针对上述问题，科研人员检测了4个基准数据集中的噪声，发现这些数据集中均广泛存在噪声数据，噪声数据占比最低31%，最多高达到65%；定义了12种类型的噪声数据并给出了具体示例；并研发了基于规则的代码注释数据噪声清理工具，治理准确率达到97.5%。科研人员对比了清理前后的3个最新代码注释自动生成模型，发现去除噪声后，模型的性能普遍提升了21%-27%。

相关研究成果以Are We Building on the Rock? On the Importance of Data Preprocessing for Code Summarization为题，被软件工程领域会议ESEC/FSE 2022录用。研究工作得到国家重点研发计划的支持。

【关闭窗口】